課程資訊
課程名稱
資訊檢索與擷取
Information Retrieval and Extraction 
開課學期
105-1 
授課對象
學程  知識管理學程  
授課教師
陳信希 
課號
CSIE5460 
課程識別碼
922 U1910 
班次
 
學分
全/半年
半年 
必/選修
選修 
上課時間
星期四2,3,4(9:10~12:10) 
上課地點
資105 
備註
系統領域選修課程。
限學士班三年級以上
總人數上限:55人 
Ceiba 課程網頁
http://ceiba.ntu.edu.tw/1051CSIE5460_irie 
課程簡介影片
 
核心能力關聯
核心能力與課程規劃關聯圖
課程大綱
為確保您我的權利,請尊重智慧財產權及不得非法影印
課程概述

課程概述

在巨量資料的世代,資訊以多樣化的語言文字與媒體呈現,透過不同的網路平台,在不同時空情境與社群間傳遞。資訊具有不同的顆粒大小,含括文件、實體、實體特性、實體關係等不同層次。本課程分成資訊檢索和資訊擷取兩部分,由文字檢索、多語言檢索、網路檢索、情境檢索、社群媒體檢索、到實體擷取、特性擷取、以及關係擷取等不同面向的理論、方法、技術、與應用。

課程內容
1. Introduction
2. An Overview On IR
3. Classic IR Models (Boolean Model, Vector Model, Probabilistic Model)
4. Advanced IR Models (Learning Model, Language Model, Topic Model, Deep Learning Model)
5. Retrieval Evaluation
6. Relevance Feedback and Query Expansion
7. Chinese Information Retrieval
8. Text Operations
9. Classification and Clustering
10. Index Construction
11. Social Search
12. Entity Extraction
13. Relationship Extraction
14. Knowledge Base and Linked Data 

課程目標
本課程學習資訊檢索和資訊擷取兩大領域的理論、方法、技術、與應用。
 
課程要求
待補 
預期每週課後學習時數
 
Office Hours
每週三 14:00~15:00
每週二 14:30~16:30
每週一 11:00~12:00 備註: TA Office Hours@R301 顏安孜: (一)11:00~12:00, (二)14:30~16:30 // 薛祐婷: (三)14:00~15:00, 另約時間 
指定閱讀
課程投影片、講義、和參考書。 
參考書目
1. Ricardo Baeza-Yates and Berthier Ribeiro-Neto, Modern Information Retrieval:
The Concepts and Technology behind Search, Second edition, 2011.
2. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction
to Information Retrieval, Cambridge University Press. 2008.
3. Hang Li and Zhengdong Lu, Deep Learning for Information Retrieval,
dl.acm.org/ft_gateway.cfm?id=2914800&type=pdf
4. Sunita Sarawagi, Information Extraction, Foundations and Trends in
Databases, Vol. 1, No. 3, 2007, 261–377.
5. Fabian Suchanek and Gerhard Weikum, Knowledge Harvesting in the Big Data
Era, http://www.mpi-inf.mpg.de/yago-naga/sigmod2013-tutorial/
6. Selected Papers 
評量方式
(僅供參考)
   
課程進度
週次
日期
單元主題
第1週
9/15  中秋節,放假 
第2週
9/22  Introduction, Basic IR Cocenpts 
第3週
9/29  Classic IR Models (Boolean Mode, Weighting Schemes, Normalization and Vector Model, Probabilistic Model) 
第4週
10/6  Alternative Models (Set-Based Model, Extended Boolean Model, Fuzzy Set Model), Alternative Algebraic Models (Generalized Vector Space Model) 
第5週
10/13  Alternative Probabilistic Models (Latent Semantic Indexing Model, Neural Network Model) 
第6週
10/20  Latent Semantic Indexing, BM25, Language Model

[[ Term Projects Overview & Dividing into Groups ]] 
第7週
10/27  Language Model, Deep Learning for IR
[[ Project 1 RELEASE ]] 
第8週
11/3  Retrieval Metrics (BPREF, Rank Correlation Metrics), Reference Collection, User-based evaluation 
第9週
11/10  Midterm Exam 
第10週
11/17  Relevance Feedback and
Query Expansion 
第11週
11/24  Implicit Feedback through Local Analysis/Global Analysis, Natural Language Issues in IR
[[ Project 1 DUE ]] 
第12週
12/1  Fundamental of Information Extraction 
第13週
12/08  Entity Extraction
[[Project 2 RELEASE]] 
第14週
12/15  老師出國參加國際會議,助教帶領同學們進行term project階段報告 
第15週
12/22  Entity Extraction, Temporal and Event Processing 
第16週
12/29  Knowledge Base and Linked Data 
第17週
1/5  Question-Answering with Linked Data

[[ Project 2 DUE ]] 
第18週
1/12  Final Term Exam